Penn Treebank 指由美国宾夕法尼亚大学(University of Pennsylvania)主导构建的一套大型英语语料库(corpus),其中包含句子原文以及经过语言学标注的结构信息,尤其以词性标注(POS tagging)和句法树/短语结构标注(parse trees)著名。它是自然语言处理(NLP)和计算语言学中最经典、最常用的基准数据资源之一。(也常被简称为 PTB。)
/ˌpɛn ˈtriːˌbæŋk/
The Penn Treebank is widely used to train parsers.
Penn Treebank 被广泛用于训练句法分析器。
Using Penn Treebank annotations, researchers can evaluate how well different models capture syntactic structure in real newswire text.
借助 Penn Treebank 的标注,研究者可以评估不同模型在真实新闻文本中捕捉句法结构的效果。
Penn 来自 “University of Pennsylvania(宾夕法尼亚大学)” 的常见简称;treebank 是计算语言学里的术语,表示“带有句法树标注的语料库”。其中 tree 指“句法树(parse tree)”,bank 有“储备、库”的含义,合起来就是“句法树语料库”。